语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
在医学成像中不同分布班次下概括的学习模型一直是一项长期的研究挑战。在视觉研究从业者之间有高效和强大的视觉表现学习有几个提案,特别是在敏感和临界生物医学领域。在本文中,我们提出了一种胸部X射线病理的分发通用的想法,这些胸部X射线病理学的概念使用简单的平衡批量采样技术。我们观察到,多次训练数据集之间的平衡采样可提高对培训的基线模型而不进行平衡的性能。
translated by 谷歌翻译
TorchXrayVision是一个开源软件库,用于使用胸部X射线数据集和深度学习模型。它为广泛的公共可公共胸部X射线数据集提供了一个通用的接口和通用预处理链。此外,通过库培训具有不同架构的许多分类和表示模型,通过库可获得不同的数据组合,以用作基线或特征提取器。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
在COVID-19大流行期间,在COVID-19诊断的紧急环境中进行的大量成像量导致临床CXR获取的差异很大。在所使用的CXR投影,添加图像注释以及临床图像的旋转程度和旋转程度中可以看到这种变化。图像分析社区试图通过开发自动化的CoVID-19诊断算法来减轻大流行期间过度拉伸放射学部门的负担,该诊断算法是CXR成像的输入。已利用大量公开的CXR数据集来改善CoVID-19诊断的深度学习算法。然而,公开可用数据集中临床可获得的CXR的可变质量可能会对算法性能产生深远的影响。 COVID-19可以通过图像标签等图像上的非动物特征的算法来推断诊断。这些成像快捷方式可能是数据集特定的,并限制了AI系统的概括性。因此,了解和纠正CXR图像中的关键潜在偏差是CXR图像分析之前的重要第一步。在这项研究中,我们提出了一种简单有效的逐步方法,以预处理Covid-19胸部X射线数据集以消除不希望的偏见。我们进行消融研究以显示每个单个步骤的影响。结果表明,使用我们提出的管道可以将基线共证检测算法的精度提高到13%。
translated by 谷歌翻译
通过利用和适应到目前为止获得的知识,人类具有识别和区分他们不熟悉的实例的天生能力。重要的是,他们实现了这一目标,而不会在早期学习中恶化表现。受此启发,我们识别并制定了NCDWF的新的,务实的问题设置:新颖的类发现而无需忘记,哪个任务是机器学习模型从未标记的数据中逐步发现实例的新颖类别,同时在先前看到的类别上保持其性能。我们提出1)一种生成伪内表示的方法,该表示的代理(不再可用)标记的数据,从而减轻遗忘的遗忘,2)基于相互信息的正常化程序,可以增强对新型类别的无聊发现,而3)a 3)当测试数据包含所见类别和看不见的类别的实例时,简单的已知类标识符可以有助于广义推断。我们介绍了基于CIFAR-10,CIFAR-100和IMAGENET-1000的实验协议,以衡量知识保留和新型类发现之间的权衡。我们广泛的评估表明,现有的模型在确定新类别的同时灾难性地忘记了先前看到的类别,而我们的方法能够有效地在竞争目标之间平衡。我们希望我们的工作能够吸引对这个新确定的实用问题设定的进一步研究。
translated by 谷歌翻译
在本文中,我们研究了差异化的私人经验风险最小化(DP-erm)。已经表明,随着尺寸的增加,DP-MER的(最坏的)效用会减小。这是私下学习大型机器学习模型的主要障碍。在高维度中,某些模型的参数通常比其他参数更多的信息是常见的。为了利用这一点,我们提出了一个差异化的私有贪婪坐标下降(DP-GCD)算法。在每次迭代中,DP-GCD私人沿梯度(大约)最大条目执行坐标梯度步骤。从理论上讲,DP-GCD可以通过利用问题解决方案的结构特性(例如稀疏性或准方面的)来改善实用性,并在早期迭代中取得非常快速的进展。然后,我们在合成数据集和真实数据集上以数值说明。最后,我们描述了未来工作的有前途的方向。
translated by 谷歌翻译
原位可视化技术因缺乏远见而受到阻碍:由于采样率差或临界时间段上的细节不足,可能会错过关键的仿真现象。将人保持在循环中是不切实际的,定义统计触发器可能很困难。本文展示了使用基于机器学习的仿真替代物作为甲骨文来识别大规模仿真的预期关键区域的潜力。这些关键区域用于推动原位分析,提供更大的数据保真度和分析解决方案,其等效I/O预算与传统的现场框架。我们通过将TACC星系与CB-GEO MPM集成以进行颗粒流的材料点模拟,从而开发出分布的异步原位可视化。我们采用基于Pytorch的3D图网络模拟器(GNS),该模拟器(GNS)接受了颗粒流问题的训练,作为预测颗粒流动的动力学的甲骨文。关键的利益区域在GN中手动标记,以在MPM中进行原位渲染。
translated by 谷歌翻译
学习一种新语言涉及不断比较语音作品与环境的参考作品。在言语获取的早期,孩子们进行了发音调整以符合他们的看护人的言论。一种语言的成年学习者调整他们的演讲以匹配导师参考。本文提出了一种合成产生正确的发音反馈的方法。此外,我们的目标是在保持演讲者的原始声音的同时产生校正后的生产。该系统提示用户发音短语。记录语音,并用与不准确音素相关的样品用零掩盖。该波形是对语音生成器的输入,作为具有U-NET体系结构的深度学习介绍系统实现,并经过培训以输出重建的语音。该训练集由未损坏的适当语音示例组成,并且对发电机进行了训练以重建原始的适当语音。我们评估了系统的性能在音素替代英语以及发音障碍儿童的最小对单词方面的性能。结果表明,人类听众稍微偏爱我们产生的语音,而不是用不同的扬声器的生产来平滑地替换音素。
translated by 谷歌翻译
对于将数据的每个分区设置为给定数量的部分,存在一个分区,使得每个部分尽可能多地是该部分中数据的良好模型(“算法足够的统计”)。由于这可以为数据之间的每个数字进行完成,因此结果是函数,群集结构功能。它将分区的部分数量映射到与零件是良好模型的缺陷相关的值。这种函数以至少为零的值,该值对于数据集的分区,并且对于将数据分区设置为单例部件的数据来零区段。最佳聚类是选择最小化群集结构功能的最佳聚类。该方法背后的理论以算法信息理论(Kolmogorov复杂性)表示。在实践中,所涉及的Kolmogorov复杂性近似于混凝土压缩机。我们提供了使用真实数据集的示例:Mnist手写数字和干细胞研究中使用的真实细胞的分割。
translated by 谷歌翻译